Celem niniejszego projektu jest zbadanie wielowymiarowych zależności między spożyciem alkoholu, towarzyszącym mu stylem życia a wynikami w nauce (GPA) oraz funkcjonowaniem poznawczym studentów uniwersyteckich. Problem ten jest istotny ze względu na powszechność kultury picia w środowisku akademickim i jej potencjalnie negatywny wpływ na karierę edukacyjną. Analiza opiera się na danych ankietowych obejmujących zmienne demograficzne, ekonomiczne (stypendia, zakwaterowanie), społeczne (relacje z rodzicami) oraz behawioralne (częstotliwość imprezowania, absencja na zajęciach). W toku prac dane poddano czyszczeniu oraz imputacji, aby zapewnić rzetelność wnioskowania statystycznego.
W ramach analizy postawiono następujące pytania badawcze, mające na celu zgłębienie mechanizmów rządzących badanym zjawiskiem:
allowance) stymuluje intensywniejsze życie
towarzyskie, pośrednio wpływając na obniżenie wyników w nauce?W tym etapie surowe dane ankietowe zostały poddane standaryzacji i transformacji, aby umożliwić ich dalszą analizę statystyczną. Wykonano następujące operacje:
sex, grade_12, drinks),
zastępując długie pytania z kwestionariusza (Tabela 1).grade_last_y) nie są błędem, lecz wynikają ze struktury
badania (brak historii studiowania). Zostało to uwzględnione w procesie
czyszczenia.| Nazwa zmiennej | Opis zmiennej |
|---|---|
| sex | Płeć respondenta |
| grade_12 | Średnia ocen z 12 klasy (GPA) |
| last_year | Rok studiów w roku 2023 |
| faculty | Kierunek studiów |
| grade_last_y | Średnia ocen za rok akademicki 2023 |
| accomodation | Status zakwaterowania (prywatne vs publiczne) |
| allowance | Miesięczny budżet |
| scholarship | Czy student posiadał stypendium |
| studying | Dodatkowe godziny nauki tygodniowo |
| partying | Częstotliwość wychodzenia na imprezy |
| drinks | Liczba drinków spożywanych jednej nocy |
| classes_missed | Liczba zajęć opuszczonych przez alkohol |
| modules_failed | Liczba niezdanych przedmiotów |
| relationship | Czy student jest w związku |
| parents_alcohol_approval | Czy rodzice akceptują spożywanie alkoholu |
| relationship_w_parents | Relacja z rodzicami |
Przed przystąpieniem do imputacji (uzupełniania) danych,
przeprowadzono wizualną inspekcję brakujących wartości przy użyciu
pakietów naniar i ggmice. Pozwoliło to na
podjęcie kluczowych decyzji:
sex (płeć), faculty (wydział) oraz
last_year (rok studiów). Zmienne te definiują profil
studenta i są trudne do wiarygodnego, sztucznego odtworzenia.Pozostałe braki danych (w zmiennych takich jak
allowance, scholarship czy
grades) uzupełniono, wykorzystując algorytm
k-Nearest Neighbors (kNN). Metoda ta polega na
znalezieniu dla każdej niepełnej obserwacji grupy najbardziej podobnych
do niej studentów (“sąsiadów”) i uzupełnieniu braku na podstawie ich
danych.
Dobór parametru \(k=5\):
Zdecydowano się na ustawienie parametru liczby sąsiadów na \(k=5\). Jest to optymalny kompromis:
Dla zmiennej grade_last_y zastosowano podejście
hybrydowe: imputacja została przeprowadzona, a następnie skorygowana
logicznie dla studentów pierwszego roku, aby nie przypisywać im
sztucznych ocen z okresu, gdy nie studiowali.
Dodatkowo braki pozostawiono w zmiennych takich jak:
relationship, parents_alcohol_approval oraz
relationship_w_parents ze względu na trudność przewidzenia
tak osobistych danych przez metody imputacji.
W celu potwierdzenia poprawności działania algorytmu wygenerowano
wykresy typu stripplot dla zmiennych allowance oraz
accommodation. Zdecydowaliśmy się akurat na te zmienne ze
względu na to, że tylko one mają braki na poziomie co najmniej 5%
(oprócz braków strukturalnych w grade_12).
Wybrano zestawienie tych kategorii ze zmienną grade_12,
aby sprawdzić, czy wartości uzupełnione (zaznaczone na czerwono)
naturalnie wpisują się w rozkład danych oryginalnych. Brak wyraźnych
skupisk punktów imputowanych poza chmurą danych zaobserwowanych
potwierdza, że proces uzupełniania nie wprowadził zniekształceń do
struktury zbioru.
W tej sekcji postaraliśmy się odpowiedzieć na pytanie badawcze czy wyższy dochód rozporządzalny stymuluje intensywniejsze życie towarzyskie?
Aby umożliwić obiektywne porównanie grup, wprowadzono dwa parametry analityczne:
partying): 0–4 pkt
(w tym wartość 1.5 dla “Only weekends”).drinks): 0–9
pkt.Wizualizacja wykorzystuje metodę estymacji gęstości jądrowej (2D Kernel Density). Skala kolorystyczna wskazuje na stopień koncentracji obserwacji w danej przestrzeni.
Podsumowanie: Wyższy status ekonomiczny działa jako katalizator życia towarzyskiego. Zwiększając dostępność kosztownych rozrywek, staje się on pośrednim czynnikiem ryzyka dla wyników akademickich poprzez wyraźną zmianę priorytetów czasowych studenta.
| N | Średnia | Mediana | Odchylenie | Minimum | Maksimum |
|---|---|---|---|---|---|
| 398 | 68.4 | 68 | 9.98 | 30 | 96 |
| No (N=353) | Yes (N=45) | ||||
|---|---|---|---|---|---|
| Mean | Std. Dev. | Mean | Std. Dev. | ||
| Średnia ocen | 68.5 | 10.2 | 67.8 | 8.4 | |
| N | Pct. | N | Pct. | ||
| Płeć | Kobieta | 164 | 46.5 | 18 | 40.0 |
| Mężczyzna | 189 | 53.5 | 27 | 60.0 | |
| Nauka (h) | 0 | 20 | 5.7 | 0 | 0.0 |
| 1-3 | 74 | 21.0 | 8 | 17.8 | |
| 3-5 | 91 | 25.8 | 13 | 28.9 | |
| 5-8 | 71 | 20.1 | 8 | 17.8 | |
| 8+ | 97 | 27.5 | 16 | 35.6 | |
| Imprezy | 0 | 13 | 3.7 | 4 | 8.9 |
| 1 | 97 | 27.5 | 11 | 24.4 | |
| Only weekends | 94 | 26.6 | 16 | 35.6 | |
| 2 | 76 | 21.5 | 9 | 20.0 | |
| 3 | 57 | 16.1 | 5 | 11.1 | |
| 4+ | 16 | 4.5 | 0 | 0.0 | |
W celu sprawdzenia zależności między ilością spożywanego alkoholu a średnią ocen (GPA), przeprowadzono analizę korelacji rangowej Spearmana.
-0.0860.087Interpretacja statystyczna: Analiza wykazała bardzo słabą, ujemną tendencję, jednak zależność ta nie osiągnęła przyjętego progu istotności statystycznej (\(p < 0.05\)).
Podsumowanie: Hipoteza o bezpośrednim, istotnym negatywnym wpływie alkoholu na średnią ocen nie znalazła potwierdzenia w zebranych danych.
| Czynnik | Iloraz Szans (OR) | Błąd standardowy | Statystyka z | Wartość p (p-value) | Dolna granica (95%) | Górna granica (95%) |
|---|---|---|---|---|---|---|
| Częstotliwość imprezowania | 0.715 | 0.132 | -2.534 | 0.011 | 0.548 | 0.923 |
| Liczba opuszczonych zajęć | 1.122 | 0.089 | 1.301 | 0.193 | 0.942 | 1.335 |
Interpretacja: Metoda łokcia wskazuje na punkt “zagięcia” krzywej przy wartości k = 3. Oznacza to, że po wyodrębnieniu trzech grup, dalsze rozdrabnianie populacji nie przynosi istotnego wzrostu jakości dopasowania. Sugeruje to istnienie trzech głównych archetypów zachowań wśród badanych studentów.
Sprawdzamy, czy środowisko akademika sprzyja gorszemu GPA w porównaniu do mieszkania prywatnego. Została zbadana różnica w wynikach w ostatnim roku dla studentów, którzy są teraz przynajmniej na 2 roku.
| Statystyka Chi2 | df | p-value |
|---|---|---|
| 16.0614 | 4 | 0.0029 |